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Résumé 

Constatant que les méthodes statistiques dominantes en traitement de l'information ne 
peuvent résoudre certaines difficultés, je propose une approche centrée sur les méthodes 
linguistiques symboliques afin d'identifier la contribution que ces dernières peuvent ap- 
porter au domaine. Elle s'appuie sur une identification du sens des mots et des relations 
entre ces mots pour proposer des reformulations d'énoncés sans changement de signi- 
fication. Les reformulations sont parasynonymiques et dérivationnelles et permettent 
de trouver une information textuelle quelle que soit la formulation de l'information ou 
de la requête. 

Mots-clefs : Sémantique lexicale ; désambiguïsation ; question-réponse ; extraction 
d'information ; corpus ; génération ; reformulation ; analyse syntaxico-sémantique ; sy- 
nonymie ; dérivation morphologique ; dictionnaire électronique 

Abstract 

In textual knowledge management, statistical methods prevail. Nonetheless, some dif- 
ficulties cannot be overcome by thèse méthodologies. I propose a symbolic approach 
using a complète textual analysis to identify which analysis level can improve the 
the answers provided by a System. The approach identifies word sensés and relation 
between words and générâtes as many rephrasings as possible. Using synonyms and 
derivative, the System provides new utterances without changing the original meaning 
of the sentences. Such a way, an information can be retrieved whatever the question 
or answer's wording may be. 

Keywords: Lexical semantics; Word Sensé Disambiguation; question answering; in- 
formation extraction; corpus; génération; rephrasing; parsing; semantic analysis; syn- 
onymy; derivational morphology; electonic dictionary 



1 Introduction 

La société actuelle a fait de la maîtrise de l'information un enjeu de savoir autant que 
de pouvoir. Cependant, face à la profusion des sources d'information, face à l'enchevêtre- 
ment ingérable des données elles-mêmes, personne n'est plus capable de fournir un accès 
rapide à un élément d'information précis. Les initiatives qui visent à élaborer une méthode 
automatique de gestion de l'information capable d'ordonner des masses de données sont 
dès lors bienvenues. 
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Dans les champs de recherche liés à l'information textuelle électronique, et notam- 
ment la tâche de question-réponse, plusieurs méthodes ont vu le jour, qui permettent de 
confronter les données de la question avec celles contenues dans un texte. Si les données cor- 
respondent, on considère que la réponse à la question posée est dans le contexte immédiat 
de l'information commune à la question et à la bribe de texte. Diverses conférences inter- 
nationales ont également vu le jour, dont l'objet est l'évaluation des systèmes proposés : 
TREC, CLEF, NTCIR. . . 

Il reste toutefois que toutes ces méthodes fonctionnent sur base d'un même schéma. Il 
s'agit en effet d'appréhender la question, de l'analyser pour la débarrasser de tout élément 
perturbateur, et d'en effectuer une expansion destinée à contrer les variations de forme qui 
peuvent se présenter dans les documents interrogés. De plus, les meilleurs systèmes plaident 
tous pour des approches capable de gérer au mieux le caractère langagier des textes. Par 
exemple, |Hull, 1 999 1 proposait déjà l'exploitation des résultats d'une analyse morpholo- 
gique pour indexer les éléments significatifs tant dans les requêtes que dans les réponses. 
Par la suite, [Ferret et ai, 2002] ont proposé une certaine intégration de la syntaxe, capable 
de reconnaître un certain nombre d'entités nommées ainsi que de déterminer la nature de la 
réponse à la question. Le meilleur système actuellement disponible |Harabagiu et a/.,~2 000| 
s'appuie sur des notions sémantiques issues du réseau WordNet, ainsi que sur un moteur 
d'inférences logiques pour proposer un niveau très élevé de réponses correctes. 

De plus, une consultation, même rapide, des publications liées aux campagnes d'éva- 
luation du domaine de question-réponse |Voorhees et Buckland, 20"Ô4 Peters et al., 2005 



Kando et Ishikawa, 2 005 1 permet de constater que les qualités qui distinguent le résultat 



des différentes approches résident dans leur capacité à mieux appréhender la langue, à 
obtenir une meilleure analyse linguistique non seulement de la question, mais également 
des réponses possibles. Malgré les vertus reconnues des modules d'analyse linguistique, il 
est pourtant étrange de constater qu'ils n'occupent qu'une place générique dans toutes ces 
approches à dominante statistique, et qu'aucune recherche n'est actuellement menée pour 
leur accorder un statut plus central qui pourrait encore améliorer le fonctionnement des 
logiciels. 

Cet article s'appuie sur les constats précédents pour proposer une méthode où l'analyse 
linguistique occupe une place prépondérante à tous les niveaux du système. Nous allons 
d'abord présenter les contraintes propres à une analyse morpho-syntaxique et sémantique 
d'énoncés textuels et exposer les choix auxquels elles nous ont amené. Ensuite, nous pré- 
senterons brièvement les outils d'analyse que nous avons utilisés dans notre approche, ainsi 
que les ressources lexico-sémantiques que nous avons exploitées, et les adaptations qui ont 
été nécessaires. Après cela, nous présenterons la construction d'une structure information- 
nelle qui fournit un accès à chaque élément d'information contenu dans une base textuelle. 
Enfin, nous présenterons la méthode permettant de trouver la réponse à une question posée 
en français dans cette base textuelle. Finalement, nous présenterons quelques perspectives 
futures pour ce sujet de recherche, et notamment l'exploitation de cet outil en manipulation 
linguistique de corpus textuels. 



2 Une méthode linguistique de structuration textuelle 

L'examen des systèmes de question-réponse existants nous a donc amené à élaborer une 
stratégie bien différente, centrée sur une analyse linguistique des énoncés. Cette démarche 
s'inscrit toutefois dans la tradition du domaine, puisque la définition de l'information consi- 
dérée appartient à une perspective syntaxico-sémantique et lexico-sémantique. Il s'agit en 
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effet d'identifier les unités lexicales porteuses de sens, considérées comme l'information élé- 
mentaire, les relations (syntaxiques) entre ces éléments, ainsi que le sens lexical des lexèmes 
en contexte. D'autre part, les variations dans la formulation d'une même information sont 
classiquement compensées par une expansion de l'énoncé, où synonymes, hypéronymes, 
holonymes et autres dérivés morphologiques interviennent à plaisir. 

L'expansion d'énoncé pratiquée généralement dans le domaine de question-réponse s'ap- 
plique à la requête. Le principe en est simple : à chaque unité lexicale considérée comme 
significative est associée une liste de mots qui lui sont jugés équivalents, sous forme de 
synonymes, d'hyponymes et hypéronymes, de dérivés, etc. Ces listes d'expansions sont uti- 
lisées disjonctivement au lexème original lorsque la requête est proposée à un moteur de 
recherche. Mais si une telle expansion permet effectivement de résoudre dans un grand 
nombre de cas les problèmes de formulation, seule la maîtrise du sens de l'énoncé à ex- 
panser permet de sélectionner les reformulations qui conviennent dans le contexte courant. 
La figure Q] page [3] distingue les expansions correctes (A) des expansions erronées (B), 
susceptibles d'apporter des réponses inadéquates. 



Question : « De quel chef Domitien est-il le successeur ? » 

A général héritier 

empereur succéder 



B cuisinier remplaçant 

cheveu succédané 



Réponse : 

Second fils de Vespasien, Domitien succéda à l'empe- 
reur Titus et poursuivit la remise en ordre de l'État. 

FiG. 1 - Exemple d'expansion d'énoncé : le problème du sens 



Une sélection du sens des unités lexicales de la requête est donc nécessaire pour que 
l'expansion puisse être effectuée en fonction du sens original, afin de limiter le bruit. Cepen- 
dant, on sait depuis |Weaver, 1949| toute l'importance que prend le contexte - et même son 
contexte syntaxique [Reiner, 1955| - dans le choix du sens lexical d'un mot dans une phrase 
(désambiguïsation sémantique lexicale). De plus, le simple bon sens permet de constater 
que les questions que l'on peut poser au système sont généralement plus courtes que des 
phrases rédigées dans un document. Le contexte y est donc moins important que dans les 
textes interrogés. Par ailleurs, les grammaires syntaxiques des outils d'analyse existants 
fonctionnent habituellement moins bien sur des phrases interrogatives que sur des énon- 
cés affîrmatifs. Il est donc moins efficace de traiter la sémantique lexicale d'un lexème s'il 
apparaît dans une requête que s'il figure dans la base textuelle elle-même. 

Dès lors, une démarche qui applique prioritairement une analyse syntaxico-sémantique 
aux documents plutôt qu'à la requête s'est imposée. Ce choix est d'autant plus opportun 
qu'il s'intègre pleinement à l'indexation du contenu des documents, indispensable lors de la 
phase de recherche, et qui consiste à recenser le contenu des documents. De plus, une telle 
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approche centrée sur les documents présente comme avantage pratique de distinguer nette- 
ment et chronologiquement l'analyse et l'expansion des énoncés, et la phase d'interrogation. 
De la sorte, les traitements les plus lourds sont appliqués préalablement, et l'interrogation 
de la structure de l'information se fait de manière presque instantanée. 

Le système comporte donc deux niveaux de fonctionnement. Le premier consiste à ana- 
lyser les documents d'un point de vue morphologique, syntaxique et sémantique, puis à leur 
appliquer une expansion à l'aide d'informations provenant de ressources lexico-sémantiques 
(adjonction d'enrichissements), et à stocker les résultats dans des index constituant une 
structure de toute l'information textuelle |Roux et Jacquemin, 2002] , La seconde étape a 
pour objet l'interrogation de cette structure à l'aide de questions ordinaires. 

3 Outils d'analyse textuelle 

Comme nous l'avons indiqué plus haut, divers outils d'analyse interviennent dans l'iden- 
tification des éléments d'information présents dans les documents. Il s'agit d'identifier les 
éléments eux-mêmes, c'est-à-dire les mots significatifs, au travers d'une analyse morpho- 
logique ; ensuite, les relations entre ces mots grâce à l'analyse syntaxique ; enfin, la désa- 
mbiguïsation sémantique permet de connaître la signification des mots dans leur contexte 
d'apparition. Voici une rapide description de ces outils. 

3.1 L'analyseur morphologique 

L'analyseur morphologique NTM (Normalizer, Tokenizer, Morphological analyzer) que 
nous avons utilisé est un système de transducteurs à états finis développé au Centre de 
Recherche européen de Xerox (XRCE) |Aït-M okhta r, 1998| . Ce système prend en entrée 
n'importe quelle chaîne de caractères en français et y applique des traitements de norma- 
lisation, de segmentation s'il s'agit de plusieurs unités lexicales, et propose les différentes 
analyses morphologiques possibles pour chacun des segments identifiés. La figure [2] page H] 
permet d'identifier les traitements appliqués par NTM à une phrase proposée en entrée. Il 
permet d'obtenir une version normalisée de chaque unité lexicale, son lemme et les infor- 
mations morphologiques qui y sont associées sous la forme de traits attachés à la forme de 
départ. 



Son deuxième fils [. . .] 



Mot du texte 


lemme 


Analyse morphologique 


Traits ajoutés 


son 


son 


+PP3S+InvGen+SG+Poss 




son 


son 


+Masc+SG+Noun+ 


+SOM+AGR 



PP3S Pronom personnel 3ème sg Masc Masculin 
InvGen Invariable en genre SG Singulier 

SG Singulier Noun Nom 

Poss Possessif SOM Relatif au corps 

AGR Agriculture 

FlG. 2 - Exemple d'analyse morphologique par NTM 
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Cet analyseur présente également une qualité qui a pu être exploitée avec succès. En 
effet, sa conception sous forme de transducteurs, et la présentation de ses résultats sous 
forme de traits attachés aux unités lexicales, permettent d'ajouter aisément certaines infor- 
mations lexicales qui peuvent être utiles pour les traitements ultérieurs. Ainsi, on peut voir 
dans l'exemple que nous avons ajouté aux lexiques existants des informations sémantiques 
extraites d'un dictionnaire, qui seront utilisées ultérieurement lors de la phase de désa- 
mbiguïsation. Dans l'intervalle, cette information subsiste attachée aux unités lexicales, 
mais elle reste virtuelle dans la mesure où elle n'intervient ni dans la désambiguïsation 
catégorielle, ni dans l'analyse syntaxique. 

3.2 L'analyseur syntaxique 

L'analyseur syntaxique XIP (Xerox Incrémental Parser) |Roux, 1999| est un moteur 
d'analyse syntaxique basé sur des grammaires de réécritures incrémentales. Il permet d'ef- 
fectuer le cas échéant une désambiguïsation catégorielle d'énoncés étiquetés morphologi- 
quement mais non désambiguïsés. Il propose surtout une analyse syntaxique de surface 
robuste de ces énoncés sous forme de dépendances entre des nœuds représentés sous la 
forme des unités lexicales équivalant à la tête des syntagmes minimaux (chunks) concer- 
nés. Une représentation en arbre de chaque phrase, ainsi qu'un découpage en syntagmes 
minimaux sont également proposés, mais ils ne sont pas utilisés ici. 

Énoncé : « Il reconstruisit Rome ruinée par les incendies. » 

Extraction des dépendances : 

SUBJ (reconstruisit, II) 2e argument sujet du 1er argument 
SUB J (ruinée , incendies) 

VMOD [INDIR] (ruinée, par, incendies) 3e argument compl. agent 1er argument 

VARG[DIR] (reconstruisit , Rome) 2e argument COD du 1er argument 

NM0D[ADJ] (Rome , ruinée) 2e argument épithète du 1er argument 

FiG. 3 - Exemple d'analyse syntaxique par XIP 



La figure [3] page [5] permet d'évaluer les possibilités de XIP et d'illustrer son mode de 
représentation des relations syntaxiques par dépendances. On peut également voir le travail 
de certains traits, exclusivement syntaxique ici, et portant sur la nature des dépendances 
(DIR et INDIR respectivement sur les dépendances VMOD et VARG, ainsi que ADJ sur NMOD). 
XIP applique des règles contextuelles qui permettent d'évaluer des nœuds et des traits 
portant sur des nœuds appartenant à un même contexte pour construire des syntagmes 
minimaux et des dépendances. Ce mode de fonctionnement est très intéressant car s'il 
permet de travailler sur des indications lexico-morphologiques pour la désambiguïsation 
catégorielle et des données lexico-syntaxiques pour la construction des dépendances syn- 
taxiques, il n'y a pas d'obstacle à son utilisation dans une perspective lexico-sémantique. 

3.3 Le désambiguïsateur sémantique 

Le système de désambiguïsation sémantique présenté de le cadre de cette étude est une 
évolution de la méthode de |Brun et al., 2001] , qui reposait sur l'exploitation de l'analyse 
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syntaxico-sémantique d'un dictionnaire utilisé comme corpus sémantiquement étiqueté. Le 
présent système |Jacquemin, 2003] exploite l'information du Dictionnaire des verbes fran- 
çais [Dubois et Dubois-Charlier, 1997| et de son complément des autres catégories gram- 
maticales (ces deux dictionnaires complémentaires seront désormais désignés sous le nom 
générique Dubois). Ces dictionnaires répartissent l'information fournie non par unité lexi- 
cale, mais par sens de chaque unité lexicale. De la sorte, chaque information fournie par le 
dictionnaire est discriminante pour le sens concerné d'un mot donné. 

Le fonctionnement du désambiguïsateur se fait en deux temps : d'abord l'analyse du 
dictionnaire avec création de règles conditionnelles de désambiguïsation sémantique, basées 
sur un schéma syntaxique, et ensuite l'application de ces règles à des mots en contexte, sur 
base des contextes syntaxico-sémantiques fournis d'abord par les étiquettes sémantiques 
ajoutées à NTM, ensuite par les dépendances issues de l'analyse syntaxique de XIP. 

L'information qui peut être extraite du dictionnaire régit le type de règles qui peuvent 
être construite. Dans le cas du Dubois, l'information peut être diverse et se présenter 
sous forme purement syntaxique (p. ex. « Je bois » vs « Je bois de l'eau » avec l'indica- 
tion de transitivité), syntaxico-sémantique (p. ex. « embrasser quelque chose » vs « em- 
brasser quelqu'un » avec sous-catégorisation du complément direct), lexico-syntaxique 
avec l'analyse des exemples et la conservation des relations impliquant le mot consi- 
déré comme autant de schémas typiques (« le général remporte la victoire » implique 
la dépendance VARG [DIR] (remporter , victoire) , avec le mot victoire comme complé- 
ment direct de remporter) ou sémantico-syntaxique (généralisation de la dépendance ex- 
traite d'un exemple grâce aux traits sémantiques correspondant à une unité lexicale : 
VARG [DIR] (remporter, [MIL]), où le trait MIL pour militaire est le trait sémantique de 
victoire, qu'il remplace). 

Comme les règles de désambiguïsation doivent répondre au contexte syntaxique, comme 
le stipule |Reifler, 1955] , et qu'elles sont conditionnelles - puisque la conformité d'un 
contexte à une information issue d'un dictionnaire implique la sélection du sens corres- 
pondant - elles répondent à toutes les conditions pour en faire une grammaire dans XIP. 
C'est donc à cette syntaxe que les règles de désambiguïsation doivent correspondre, ce 
qui évitera la création d'un moteur d'application des règles particulier. Les résultats d'une 
désambiguïsation sémantique apparaîtront donc comme des dépendances extraites par XIP 
ou comme des traits sur des dépendances ou des nœuds de XIP. La figure H] page [7] permet 
de comprendre le mode de construction de règles de désambiguïsation sémantique à partir 
de l'information contenue dans le dictionnaire. Les données syntaxiques ou lexicales sont 
formalisées sous la forme d'une dépendance XIP et les données sémantiques sous la forme 
de traits sur les nœuds. 

L'application des règles se fait au travers de l'analyse des énoncés par XIP. La mise 
en correspondance de l'analyse syntaxique de XIP avec le schéma syntaxico-sémantique 
d'une règle de désambiguïsation implique l'application de la règle, ou la sélection du sens 
correspondant à cette règle. Le sens sélectionné est indiqué sous la forme d'un trait associé 
avec l'unité lexicale considérée. Les informations sémantiques ajoutées par NTM servent à 
l'application des règles impliquant des indications sémantiques. 

4 Adaptation des ressources lexicales 

On a déjà pu voir que les données lexicales étaient capitales pour l'approche proposée 
ici. Elles le sont non seulement dans la perspective de l'analyse sémantique, où l'information 
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Exemple extrait du Dubois pour « remporter » au sens 03 gagner : 

« Le général remporte la victoire ». 

Dépendances extraites de l'exemple : 
SUBJ(remporter, général) 
VARGfDIR] (remporter, victoire) 

• Construction d'une règle lexico-syntaxique de désambiguïsa- 

tion : 

remporter : VARG[DIR] (remporter, victoire) 
=v~ remporter 03 « gagner » 

— > apparition de victoire comme complément direct de rempor- 
ter implique le sens 03 « gagner » 

• Construction de la règle sémantico-syntaxique correspondante : 

victoire — > trait sémantique : MIL (militaire) 

remporter : VARG[DIR] (remporter, MIL) 
remporter 03 « gagner » 

— ► apparition d'un mot comportant le trait MIL (militaire) 
comme complément direct de remporter implique le sens 03 
« gagner » 

FlG. 4 - Exemple de construction des règles de désambiguïsation 



syntaxico-sémantique distribuée par sens des entrées est prépondérante, mais aussi dans 
une optique d'expansion d'énoncés. En effet, cette expansion est effectuée par remplacement 
d'unités lexicales originales par d'autres, qui peuvent leur être substituées avec un minimum 
de modifications de sens. Ce sont donc deux types de modifications lexicales qui sont 
réalisées : la synonymie, et la dérivation morphologique. Dans une certaine mesure, le 
dictionnaire Dubois est à même de fournir les indications permettant de procéder à ces 
transformations. 

En effet, un des champs informationnels de ce dictionnaire de référence fournit des 
synonymes, tandis qu'un autre procure des indications relatives à la dérivation. Toutefois, 
les synonymes sont invariablement au nombre de deux, ce qui est généralement insuffisant 
pour couvrir l'ensemble des transformations synonymiques possibles. D'autre part, les indi- 
cations de dérivations se basent sur une racine et des suffixes, qu'un système automatique 
est difficilement à même d'interpréter correctement. Dès lors, d'autres ressources et outils 
doivent être exploités pour combler les lacunes du Dubois. 



4.1 Adjonction et répartition de synonymes 

Pour ajouter une information synonymique au Dubois, nous avons utilisé trois res- 
sources lexico-sémantiques : EuroWordNet |Vossen, 1998 Catherin, 1999| , le dictionnaire 
des synonymes de |Bailly et Toro, 1947| , et un dictionnaire multilingue utilisé comme outil 
chez Memodata. Tous fournissent des synonymes, mais leur répartition par sens, quand 
elle existe, ne correspond pas à celle du Dubois. Il a donc fallu les redistribuer. Nous avons 
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élaboré une méthode qui le fait automatiquement, décrite ici | Jacquemin, 200 4b |. 

Cette procédure établit pour chaque entrée de chaque dictionnaire la liste des syno- 
nymes sans faire de distinction entre les sens différents que cette entrée peut avoir. Ensuite, 
à chaque synonyme proposé, elle associe toutes les étiquette sémantiques qui lui sont atta- 
chées dans le dictionnaire Dubois. Puis, pour l'entrée considérée, chaque sens du Dubois est 
considéré successivement : lorsqu'une des étiquettes sémantiques du synonyme proposé est 
identique à celle du sens courant de l'entrée, il est considéré comme un synonyme valable 
pour ce sens et ajouté au champ de synonymie du Dubois. La même opération est effectuée 
pour chaque entrée de chaque dictionnaire de synonymes, puis les doublons sont éliminés. 
La figure [5] page [8] illustre la procédure suivie. 

ravir (sens n°2, « voler ») 

Synonymes proposés : enlever étiquette sémantique SOC / LOC / TEX. . . 

charmer PSY / OCC 

Étiquette sémantique de ravir (2) : SOC 
=> synonyme ajouté : enlever 

FlG. 5 - Répartition des synonymes par sens du mot original 



4.2 Génération de dérivés 

D'autre part, l'information contenue dans le Dubois ne permet pas d'effectuer auto- 
matiquement la génération des formes dérivées à partir d'une vedette du dictionnaire. 
Par contre, cette information peut se révéler suffisante pour identifier une proposition 
de dérivation et confirmer sa validité. L'outil de dérivation morphologique proposé par 
|Gaussier, 1999] peut dès lors être utile puisqu'il permet de générer, pour un mot proposé, 
un très grand nombre de candidats dérivés qui sont également des lexèmes attestés dans 
le lexique, à condition de lui laisser un maximum de latitude en diminuant au maximum 
les contraintes de génération. Les données de dérivation indiquées dans les champs cor- 
respondants du Dubois permettent ensuite, par identification du suffixe et de certaines 
caractéristiques de la racine, de ne conserver pour chaque sens que les dérivés prescrits par 
le dictionnaire. 

5 Construction de la structure informationnelle 

Comme on l'a vu plus haut, la structure de l'information est constituée d'index compre- 
nant l'ensemble des données contenues dans les dictionnaires, et permettant d'avoir accès 
directement à la bribe de texte considérée comme intéressante dans la base documentaire. 
Cette structure est constituée d'abord du résultat de l'analyse des textes, c'est-à-dire des 
unités lexicales identifiées lors de l'analyse morphologique, ainsi que des traits morpho- 
logiques qui y sont associés, puis des relations syntaxiques entre ces lexèmes, ainsi que 
des traits syntaxiques associés soit aux dépendances, soit aux unités lexicales, et enfin 
des traits sémantiques dénotés lors de la désambiguïsation sémantique (numéro de sens, 
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indications sémantiques propres à ce sens dans le Dubois), qui portent uniquement sur 
les unités lexicales. La figure page [ÏÏJ montre comment la structure informationnelle est 
construite à partir d'un énoncé et de son analyse : les traits sont représentés entre crochets, 
les dépendances en majuscules et les unités lexicales en minuscules. 

« . . .Domitien succéda à l'empereur Titus. . . » 

SUBJ (succéda [sn=l] , Domitien [proper] ) 
VARG[INDIR] (succéda [sn=l ,] , à, empereur [humain,] ) 
NN (empereur , Titus [proper] ) 

FlG. 6 - Construction du « squelette » de la structure informationnelle 

Dans un deuxième temps, la structure informationnelle est enrichie par l'expansion 
des énoncés. Les synonymes sont ajoutés disjonctivement aux dépendances dans lesquelles 
apparaissent les unités lexicales originales. Par contre, les formes dérivées ne peuvent être 
placées de même dans la structure informationnelle, car elles appartiennent le plus souvent 
à une catégorie grammaticale différente de celle du lexème original dont elles sont dérivées, 
et ne présentent pas une construction syntaxique similaire. Pour conserver une signification 
aussi proche que possible de l'énoncé original, il s'agit donc de reformuler l'énoncé pour 
qu'il intègre la forme dérivée. Pour cela, nous avons étudié le processus de dérivation : 
pour chaque catégorie grammaticale originale, pour chaque catégorie grammaticale dérivée, 
pour chaque type suffixal de dérivation, nous avons sélectionné au hasard trois exemples 
de dérivation dans le Dubois, et nous avons observé de quelle manière on peut remplacer 
l'original par le dérivé dans vingt contextes réels obtenus sur le Web. À partir de là se 
sont dégagés des patrons de dérivation qui permettent à partir d'un contexte sémantico- 
lexico-syntaxique, d'identifier le schéma syntaxique d'apparition de l'original et d'inférer 
un schéma syntaxique de dérivation. La figure [7] page [TÏÏJ permet de comprendre de quelle 
manière les différents enrichissements sont ajoutés à la structure originale pour constituer 
des expansions des énoncés originaux, que ce soit par synonymie ou dérivation. 



6 Interrogation de la structure 

L'interrogation de la structure informationnelle peut être effectuée de nombreuses fa- 
çons, dans la mesure où il suffit d'effectuer une recherche sur un ou plusieurs éléments sto- 
ckés dans les index pour obtenir instantanément les énoncés d'apparition de ces éléments. 
Dans le cadre de l'application de question-réponse, c'est à une question en langue natu- 
relle que le système doit apporter une réponse | Jacquemin, 2004a] . L'information contenue 
dans la question doit donc être convertie dans un format similaire à celui de la struc- 
ture informationnelle, c'est à dire dans une structure locale similaire. Toutefois, comme 
le contexte d'une question est insuffisant pour effectuer une analyse sémantique congrue, 
cette structure locale est légère, c'est-à-dire qu'elle est limitée aux analyses morphologique 
et syntaxique, excluant donc la désambiguïsation sémantique et la phase d'expansion. 

Certaines particularités doivent pourtant être signalées dans la conception de cette 
structure légère de la question. En effet, une grammaire particulière est mise en œuvre 
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« . . .Domitien succéda à l'empereur Titus. . . » 

Résultats avant expansion : 

SUBJ (succéda [sn=l] , Domitien [proper] ) 
VARG[INDIR] (succéda [sn=l ,] , à, empereur [humain,] ) 
NN (empereur , Titus [proper] ) 

Structure de l'énoncé avec expantion : 

SUBJ (succéda/remplacer, Domitien) 
VARG[INDIR] (succéda, à, empereur) 
VARG [DIR] (remplacer , empereur/chef / [...]) 
NN (empereur/ chef/ souverain/dots , Titus) 

NMOD[INDIR] (successeur, de, empereur/chef /souverain/. . .) 
NMOD (Domitien , successeur) 



FiG. 7 - Construction de la structure informationnelle avec expansion 

dans l'analyse de la question, qui permet deux adaptations de la structure. La première 
réside dans la relation FOCUS, qui permet de caractériser l'objet de la question, et donc la ré- 
ponse attendue. Il s'agit d'une dépendance de marquage, qui identifie l'unité lexicale la plus 
significative de l'interrogation, c'est-à-dire la tête du groupe nominal lorsque l'interrogatif 
est un adjectif (« Qui est le beau-père de Galère ? » FOCUS (beau-père [PAR] )) ou F'interro- 
gatif lui-même si c'est un pronom (« Qui combattit les Parthes? » FOCUS (qui [humain] )). 
Elle permet d'identifier les traits sémantiques de l'objet de la question, et donc d'identifier 
la réponse dans les documents lorsque les autres éléments de la question se trouvent dans 
un énoncé de la base textuelle. Cette dépendance n'existant pas dans les documents - ni 
dans la structure informationnelle - étant donné ce qu'elle représente, elle devra ensuite 
être transmise comme un trait à l'intérieur de la structure légère, et supprimée comme 
dépendance cette structure légère. 

La seconde adaptation de la structure locale à la question réside dans la suppression de 
toutes les informations ne relevant que du caractère interrogatif de cette question. Ainsi, 
l'interrogatif sera supprimé pour ne conserver, au sein des dépendances qui le contiennent, 
que les traits sémantiques qui lui sont propres et, le cas échéant, le trait FOCUS. Les dépen- 
dances purement fonctionnelles disparaissent également (dues au fonctionnement interne 
de XIP ou mettant en œuvre des mots-outils, des auxiliaires ou semi-auxiliaires), car elles 
ne sont pas porteuses d'information pertinente dans le cadre de cette application. La dé- 
pendance FOCUS sera éliminée de même, mais le trait subsiste dans les dépendances où 
doit apparaître le lexème sur lequel porte cette dépendance. 



La recherche d'une réponse revient donc à mettre en correspondance la structure légère 
de la question, débarrassée de l'information propre à une interrogation, et des bribes de 
texte au travers de la structure informationnelle. Lorsqu'une information concordante à la 
structure légère est trouvée au sein de la même phrase dans la structure de l'information, 
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« De quel chef Domitien est-il le successeur ? » 

Structure légère de la question : 

SUBJ(cat, Domitien) 
FOCUS(chcf) 

, successeur) 



NMOD [SPRED] ( Domitien 



NMQD[INDIjkk| T 



successeur 



NMOD [INDIRj ( 




,de, cMef [FOCUS, SOC, C0M,HER, humain] ) 



corjesp 

SUBJ (succéda, Domitien) 
VARG[INDIR] (succédarTayémpereur) 
[ ( empereur , Hpus 



successeur 



c ant à la réponse : 

£ UBJ (succéda/ remplacer , Domitien) 

ARG[DIR] (remplacer, empereur/chef /[. . .]) 
I. N (empereur/chef /souverain/ . . . , Titus) 

/[. • •]) 



empereur/ chef 



NMOD ( Domitien , successeur) 

Enotrcé de la réponse 



«[...] 



succéda à l 



empereur 



Titus [. . .] » 



FlG. 8 - Exemple d'interrogation de la structure informationnelle avec son expansion 



cette phrase est considérée comme une réponse pertinente à la question. Bien entendu, la 
réponse est considérée comme plus pertinente si une plus grande partie de l'information 
qui concorde est originale dans le texte, et moins pertinente à mesure que ces éléments 
concordants sont issus d'une expansion. La figure IS1 page [ÏT1 illustre bien la mise en concor- 
dance d'une question avec sa réponse au travers de deux structures, l'une légère et purifiée, 
l'autre complète et enrichie d'expansions. 



7 Conclusion 

Nous avons présenté un système généraliste d'interrogation d'une base documentaire 
textuelle en langue naturelle. Ce système s'appuie sur des bases théoriques et sur des consta- 
tations pratiques pour proposer une méthode originale de structuration de l'information 
dans une base textuelle avec expansion des documents plutôt que des requêtes. L'ensemble 
des analyses et des enrichissements ont été effectués par des analyseurs linguistiques et les 
choix ont été réalisés suivant des indices contextuels et symbolistes issus de grammaires 
décrivant la langue. 

Une analyse de ce système n'a pu être présentée ici faute de place. On peut en trouver 
le détail dans | Jacquemin, 2003 ]. Il montre la validité de la méthode - elle soutient la 
comparaison avec les meilleurs systèmes de sa catégorie dans la conférence TREC -, ainsi 
que certaines faiblesses, essentiellement liées à l'absence de résolution d'anaphores ou de 
hiérarchie sémantique. D'autre part, cette approche souffre, comme c'est habituel dans 
le domaine, de la représentation exclusivement lexicale de l'information, qui tient peu 
compte des mécanismes logiques. L'inférence, par exemple, n'est pas gérée actuellement, 
mais certaines approches statistique du lexique sont prometteuses à ce stade. 

Par ailleurs, la présentation de ce système a été faite uniquement dans une optique 
de gestion de l'information. Cependant, il pourrait également se révéler un précieux outil 
d'étude de corpus écrit, dans la mesure où il peut être interrogé aisément et rapidement, que 
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tous les niveaux d'information linguistique sont disponibles à tout moment et qu'ils peuvent 
être individualisés sans problème. Ainsi, on peut facilement mêler dans une même requête 
des exigences lexicales, morphologiques, syntaxiques, sémantiques, de cooccurrence, et ob- 
tenir l'ensemble des réponses pertinentes quel que soit le corpus désiré, puisque ce système 
est automatique et qu'il accepte du texte tout venant avec une robustesse inhabituelle. Une 
telle approche à dominante linguistique semble dès lors se justifier, même si des améliora- 
tions peuvent et doivent y être apportées. 
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